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摘 要 : 类别 不 平衡 数据 是 指 不 同类 别 的 样本 数目 差异 很 大 ，AUC (Area Under the ROC Curve) 是 衡量 不 平衡 数据 
分 类 器 性 能 的 一 个 重要 指标 ， 由 于 AUC 不 可 微 ， 研 究 者 提出 了 众多 替代 成 对 损失 函数 优化 AUC。 成 对 损失 的 样本 
对 数目 为 正 负 样本 数目 的 乘积 ， 大 量 成 对 损失 较 小 的 正 负 样 本 对 影响 了 分 类 器 的 性 能 。 针 对 这 一 问题 ， 提 出 了 一 种 
加 权 的 成 对 损失 函数 WPLoss， 通 过 赋予 成 对 损失 较 大 的 正 负 样 本 对 更 高 的 损失 权重 ， 减 少 大 量 成 对 损失 较 小 的 正 
负 样 本 对 的 影响 ， 进 而 提升 分 类 器 的 性 能 。 在 20newsgroup 和 Reuters-21578 数据 集 上 的 实验 结果 验证 了 WPLoss 的 
有 效 性 ， 表 明 WPLoss 能 够 提升 面向 不 平衡 数据 的 分 类 器 的 性 能 。 
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Wploss: weighted pairwise loss for class-imbalanced datasets 
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K E Abstract: Class-Imbalanced data refers to the large difference in the number of samples in different classes. AUC (area under 
a the ROC curve) is an important metric to measure the performance of classifiers on the imbalanced datasets. Since AUC is 
not differentiable, researchers have proposed many surrogate pairwise loss functions to optimize AUC. The number of 
pairwise losses is the product of the number of positive and negative samples. Many positive and negative pairs with small 
pair loss affect the performance of classifiers. To solve this problem, this paper proposes a weighted pairwise loss function 
WPLoss. By assigning higher loss weights to the positive and negative samples with higher pairwise losses, WPLoss reduces 
the impact of positive and negative sample pairs with smaller pairwise losses. The experimental results on 20 newsgroup and 
Reuters-21578 datasets verify the validity of WPLoss, indicating that WPLoss can improve the performance of the classifier 
for class-imbalanced data. 
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0 引言 个 多 数 类 别 的 样本 集 ， 训 练 多 个 分 类 器 然后 集成 加， 另 一 些 
zx 研究 者 研究 了 基于 多 数 类 别 样本 聚 类 的 降 采 样 算法 [97], 与 降 
类 别 不 平衡 数据 是 指 不 同类 别 的 样本 数目 差异 较 大 ， 如 采样 算法 相反 ， 升 采样 算法 则 通过 增加 少数 类 别 的 样本 实现 
图 1 所 示 ， 由 Guo 构成 二 维 样本 集 ， 其 中 红色 表示 少数 样 类 别 平衡 的 算法 ， 最 简单 的 处 理 方法 是 随机 升 采样 少数 类 别 
本 的 类 别 ， 灰 色 表 示 多 数 样本 的 类 别 。 类 别 样本 数目 的 不 平 的 样本 。 随 机 升 采 样 少数 类 别 样本 由 于 噪声 样本 J 
衡 导 致 以 优化 0-1 蔡 代 损 失 函 数 为 目标 的 分 类 器 失灵 ， 因 为 致 分 类 器 容易 产生 过 拟 合 。Chawla 等 人 提出 了 通过 邻近 样本 
分 类 器 倾向 于 将 所 有 样本 预测 为 样本 数目 较 多 的 类 别 中 。 而 合成 产生 新 的 少数 类 别 样本 的 SMOTE 算法 号。 随 着 生成 对 
在 实际 应 用 中 ， 通 常 样本 数目 较 少 的 类 别 是 用 户 感 兴趣 的 类 抗 网 络 (generative adversarial networks, GAN) 的 提出 ， 
别 ， 如 在 信用 卡 欺诈 检测 应 用 中 ， 需 要 从 大 量 账号 中 挑选 出 提出 了 一 系列 基于 GAN 生成 少数 类 别 样本 的 方法 
那些 账号 可 能 存在 欺诈 行为 , 而 有 欺诈 行为 的 账号 属于 少数 ， Shicai Yang 提出 了 一 种 在 场景 分 类 任务 中 的 类 别 重组 方法 
日 是 对 银行 却 至 关 重 要 向， 再 如 从 海量 文本 数据 中 挑选 出 用 (label shuffling), 首先 按照 最 多 数 类 别 的 样本 数 生成 一 个 随机 
户 感 兴趣 或 者 认为 重要 的 文本 外， 以 及 目标 检测 任务 中 前 景 列表 ， 其 他 类 别 则 通过 取 其 对 应 样本 数 的 余数 选取 样本 00。 
和 背景 的 分 类 向 等 。 
类 别 不 平衡 分 类 的 处 理 方 法 大 体 上 可 以 分 为 两 大 类 ， 分 别 

是 数据 层面 的 处 理 方法 和 算法 层面 的 处 理 方法 ， 如 图 2 所 示 。 
数据 层面 的 处 理 方法 通过 样本 的 重 采样 处 理 类 别 不 平衡 
的 问题 ， 包 括 降 采 样 算法 、 升 采样 算法 和 类 别 重 组 方法 。 降 
采样 算法 是 指 通过 减少 多 数 类 别 的 样本 实现 类 别 平衡 的 算法 ， 
最 简单 的 处 理 方法 是 随机 降 采 样 多 数 类 别 样本 。 降 采样 算法 


Hh 上 


zn 
E 
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[9, 10]. 


减少 了 训练 样本 的 数目 ， 从 而 提升 了 算法 训练 速度 ， 但 是 损 
失 了 未 未 被 采样 到 的 多 数 类 别 样本 的 信息 。 针 对 降 采 样 算法 图 1 不 平衡 数据 分 布 示意 图 
导致 的 样本 信息 损失 的 问题 ，Liu 等 人 提出 了 随机 降 采 样 多 Fig.1 Unbalanced data distribution diagram 
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降 采 样 算法 
数据 层面 处 理 方法 人 一 升 采样 算法 
类 别 重组 方法 
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Fig. 2 Taxonomy of methods for class-imbalanced 
classification. 算法 层面 处 理 方法 则 通过 改变 分 类 算法 处 理 类 
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敏感 类 算法 和 AUC 优化 类 
算法 通过 赋予 不 同类 别 不 同 的 损失 权重 
提升 分 类 器 在 处 理 不 平衡 数据 的 分 类 性 
由 不 同类 别 的 样本 数 
出 了 Focal Loss 损失 函数 ， 
类 正确 的 样本 损失 权重 进一步 提升 了 
` 平 衡 分 类 算法 的 一 个 关键 指 
究 者 提出 了 众多 替代 成 对 损 
括 指 数 损 失 (exponential 
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在 计算 AUC 替代 成 对 损失 函数 时 ， 需 要 计算 正 负 样本 
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中， 从 而 主导 了 分 类 器 梯度 下 降 的 方向 。 
了 一 种 加 权 成 对 损失 WPLoss(weighted pairwise loss), 通过 赋 
予 成 对 损失 较 大 的 样本 对 更 大 的 损失 权重 
以 区 分 的 正 负 样 本 对 ， 


重 ， 使 分 类 器 着 重 优 
进而 提升 分 类 器 的 性 能 。 
数据 集 20newsgroup 和 Reuters-21578 数据 集 上 的 实验 结果 ， 
的 有 效 性 ， 表 明 WPLoss 提升 了 原始 的 


本 文 提出 


AUC 替代 成 对 损失 函数 的 分 类 性 能 , 而 且 与 其 他 不 平衡 分 类 


算法 相 比 ， 


也 具有 较 优 的 性 能 。 


1 WPLoss: 加 权 成 对 损失 


本 文 提 


权重 ， 使 得 
先 介绍 了 
WPLoss. 

1.1 AUC 


AUC 是 ROC(receiver operating characteristic) 


出 的 加 权 成 对 损失 WPLoss 是 一 种 加 权 的 AUC 
替代 成 对 损失 ， 虽 在 增加 成 对 损失 较 大 的 正 负 样 本 对 的 损失 


分 类 器 着 重 优 化 难以 区 分 的 了 


AUC 优化 方法 ， 然 后 描述 
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图 3 ROC 曲线 示意 


Fig.3 Roc curve 
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和 分 析 了 本 文 提出 的 
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标 是 假 阳 率 (false positive rate,FPR)， 纵 
日 率 (true positive rate, TPR)， 如 图 3 所 示 。 


ChinaXiv 合 作 期 刊 


第 38 卷 第 3 期 


S X s {x Xo.) ， 其 中 前 严 个 样本 为 正 类 样 
T, Jun 个 样本 为 负 样本 ， 7 表示 分 类 函数 ， 刀 为 为 了 正确 
预测 为 正 类 的 样本 个 数 ， 户 为 f 错误 预测 为 正 类 的 样本 个 数 ， 


AUC 的 形式 定义 如 下 所 示 。 
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22230 G9» f (s) (1) 
其 中 7 为 示 性 函数 ， "eT" 1, f 
73 0. AUC 的 取 值 范围 在 [059 之 间 , 值 越 大 表明 分 类 器 的 性 
能 越 好 。 从 AUC 的 定义 可 以 看 出 ,分 类 器 的 AUC 值 是 非 凸 
和 离散 的 ， 从 而 无 法 直接 优化 。 
在 实际 应 用 中 , 研究 者 采用 替代 成 对 损失 函数 实现 AUC 
的 优化 : 


AUC(f)=— 


& 


RG)- — 


其 中 9 是 函数 ， 如 : 
指数 损失 

逻辑 斯 带 损失 

合 页 损失 (t) 7? max (0,?- 7) 

最 小 二 乘 合 页 损失 p(t) = max (0,?-t) 

Gao 等 人 研究 了 替代 成 对 损失 与 AUC 优化 的 一 致 性 问 
题 ， 指 出 指数 损失 、 人 逻辑 斯 蒂 损 失 和 最 小 二 乘 合 页 损失 具有 
与 AUC 优化 的 一 致 性 ， 而 合 页 损失 不 具有 09]。 

1.2 加权 成 对 损失 

从 AUC 的 替代 成 对 损失 的 定义 式 (2) 可 以 看 出 ，R(f) 是 
正 负 样本 数 乘积 mm 个 样本 对 距离 的 平均 值 。 然而 , 不 同 的 样 
本 对 有 不 同 的 距离 ， 距 离 较 小 的 样本 对 为 较 难 区 分 的 正 负 样 
本 对 ， 如 图 4 中 的 样本 对 1， 而 距离 较 大 的 样本 对 为 较 易 区 
分 的 正 负 样本 对 ， 如 图 4 中 的 样本 对 2。 式 (2) 中 定义 的 AUC 
的 蔡 代 成 对 损失 采用 了 算术 平均 值 ， 将 导致 大 量 的 较 容 易 区 
分 的 样本 对 占据 损失 的 主要 部 分 ， 从 而 主导 了 梯度 方向 。 因 
而 , 本 文 提出 了 一 种 加 权 成 对 损失 WPLoss, 使 分 类 器 着 重 优 
化 难以 区 分 的 样本 对 。 
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图 4 样本 对 距离 示意 图 


Fig.4 Pairwise distance diagram 


4 p,- ef x)-f(x.;) ， 则 WPLoss 的 形式 定义 如 下 所 示 。 
| exp(p;) 
on = STS on X (i) (3) 


(4) 


WPLoss 采用 softmax 函数 ( 式 (3)) 加 权 不 同样 本 对 的 成 对 
损失 , 并 实现 归 一 化 。 WPLoss 给 予 较 小 距离 的 样本 对 较 大 的 
权重 ， 较 大 距离 的 样本 对 较 小 的 权重 ， 使 得 优化 算法 着 重 优 
化 难以 区 分 的 正 负 样 本 对 ， 进 而 提升 分 类 器 的 性 能 。 同 时 ， 
WPLoss 随 着 训练 的 进程 ， 依 据 样 本 对 的 成 对 损失 大 小 动态 
调整 损失 权重 。 
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针对 不 平衡 数据 的 分 类 问题 ， 本 文 提 
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出 了 加 权 成 对 损失 


WPLoss。 本 节 通 过 两 个 公 玫 


WPLoss 的 有 效 性 
2.1 数据 集 
a) 20newsgroup 数据 集 


姚 佳吉 ， 


F 的 数据 集 上 的 


$: WPLoss: 面 向 类 别 不 平衡 数据 的 加 权 成 对 损失 


实验 ， 验 证 了 


20newsgroup(http://qwone.com/jason/20Newsgroups/) 包 


FEKA 20,000 篇 文档 ， 大 约 被 习 


个 类 别 ， 本 文 指 定 一 个 类 别 
了 20 个 二 分 类 的 数据 集 。 
b) Reuters-21578 数据 集 


zar 


Reuters-21578 3& — 4 JF E39 ER 2G 
样本 数 最 多 的 十 个 类 别 ， 分 别 是 acq. crude. earn, grain, 


interest, money-fx, 


"n 


数据 集 。 
2.2 ”基础 模型 
本 文采 用 卷 积 字 
CNN) 作 为 文本 特征 
文本 使 用 词 向 量 表示 ， 
接 层 获取 最 终 的 特征 向 
文本 词 向 量化 表示 


tim 


o 


EAF, 整体 架构 如 图 
然后 依次 经 过 卷 积 


F 均 分 成 20 组 ， 即 对 应 着 20 
为 正 类 ， 其 余 类 别 为 负 类 ， 构 造 


mR, 本文 选择 了 
money-supply. ship. sugar 和 trade， 然 


后 以 某 一 类 为 正 类 , 其 余 类 别 为 负 类 , 构造 了 10 个 二 分 类 的 


经 网 络 (convolutional neural network, 


5 所 示 , 首先 将 


方法 , 算法 层面 处 理 方法 中 的 代价 敏感 类 方法 ， 如 偏 
和 Focal-Loss 方法 ， 以 及 AUC 优化 方法 。 下 面 分 别 介 绍 每 
种 方法 的 具体 设 定 。 

a) 原始 CNN 

原始 CNN 方法 忽略 类 别 不 平衡 的 问题 ， 
取 文 本 特征 向 量 后 ， 经 过 激活 函数 为 softmax 的 全 连接 层 ， 
获取 不 同类 别 的 概率 ， 最 后 使 用 与 真实 标签 交叉 业 (Cross- 
Entropy) 计 算 损 失 。 令 ys{0 了 第 ;个 样本 zx 的 真实 标签 , 疡 表 
WTR EMAER IAR, ARER HIRR A 
CE(f (x))=-y:l0g8(p;)-(1-y;)log(1- p.) 

b) 类 别 重组 

类 别 重组 在 原始 CNN 的 基础 上 , 重 采样 了 正 类 样本 。 首 
先 按照 负 类 的 样本 数 生 成 一 个 随机 列表 ， 正 类 则 使 用 该 随机 
列表 通过 取 正 类 样本 数 的 余数 采样 。 


在 使 
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偏 置 (Biased)CNN 在 原始 CNN 的 基础 上 , 令 正 类 样本 的 


ZA 
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图 5 卷 积 神经 网 络 架 构 


池 化 层 和 全 连 


特征 向 量 
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Fig.5 Architecture of convolutional neural network 


卷 积 网 络 的 参数 配置 如 表 1 所 示 。 此 外 ， 本 文采 
| 练 得 到 的 词 向 量 初始 化 卷 积 网 络 中 的 词 
Adam 优化 算法 [3]1。 
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损失 权重 为 1, 负 类 样本 的 损失 权重 为 正 负 类 样本 数目 比 &， 
如 下 所 示 。 
BiasedCE( f (x;)) = —y;log( pj) - a(l- y;)log(1- p;) (6) 


d) Focal-Loss 
Focal-Loss 在 偏 
如 下 所 示 。 


L CNN HÆMME, HOE T ELAR, 


FL(f (x))- 

=y; (0.- ny log( p.) - &(ao - .) p? log(1— p.) (7) 

从 Focal-Loss 的 定义 可 以 看 出 ，Focal-Loss 拓展 了 交叉 

焙 损 失 的 定义 ， 当 ”=0 时 即 为 交叉 炉 损失 ， 本 文 在 实验 时 ， 
取 y=2 。 

€) AUCIoss 

AUCloss 为 AUC 替代 成 对 损失 的 方法 , 在 实验 中 , 本 文 

采用 了 指数 损失 ， 即 令 式 CD) 中 的 2 NoNe, 
f) WPLoss 
WPLoss 即 本 文 提 出 的 方法 ， 为 了 验证 WPLoss WAX 


del 卷 积 神经 网 络 的 配置 性 ， 采 用 与 AUCloss 的 设 定 一 样 采用 指数 损失 。 
Tab.1 Settings of convolutional neural network 2.4 实验 结果 及 分 析 
参数 名 称 参数 设置 S TP 表示 正确 预测 为 正 类 的 样本 个 数 ，FP 表示 错误 预 
卷 积 核 尺寸 3x300,4x300,5x300 测 为 正 类 的 样本 个 数 , FN 为 错误 预测 为 负 类 的 样本 个 数 , 则 
卷 积 核 个 数 256 — 
激励 函数 Relu HHR P= pn | HEBR R- mom ' Mero e 本 文采 用 
池 化 函数 最 大 池 化 T Fl 指标 评估 了 不 同 算法 的 性 能 ，20newsgroup 实验 结果 如 
随机 失 活 率 0.5 K 2 所 示 ，Reuters-21578 实验 结果 如 表 3 所 示 ， 表 中 的 不 平 
2.8 ”对 比方 法 衡 率 为 负 类 样本 数 与 正 类 样本 数 的 比值 ， 性 能 最 优 的 结果 使 
本 文 对 比 了 原始 CNN, 数据 层面 处 理 方法 中 的 类 别 重 组 MERR. 
表 2 20newsgroup 实验 结果 
Tab.2 Results on 20newsgroup 
1E2S2 不 平衡 率 原始 CNN 类 别 重组 偏 置 CNN Focal-Loss AUCloss WPLoss 
alt.atheism 20.0481 0.8362 0.8580 0.8622 0.8625 0.8535 0.8638 
comp.graphics 19.2269 0.8633 0.9142 0.9233 0.9339 0.9329 0.9336 
comp.os.ms-windows.misc 18.5216 0.8979 0.9167 0.9279 0.9414 0.9414 0.9353 
comp.sys.ibm.pc.hardware 19.6445 0.9169 0.9243 0.9519 0.9553 0.9553 0.9569 
comp.sys.mac.hardware 19.5838 0.9210 0.9416 0.9585 0.9576 0.9496 0.9493 
comp.windows.x 18.7698 0.9050 0.9416 0.9441 0.9469 0.9449 0.9468 
misc.forsale 18.7141 0.8032 0.8784 0.9322 0.9072 0.9282 0.9262 
rec.autos 18.8539 0.9489 0.9583 0.9744 0.9611 0.9641 0.9556 
rec.motorcycles 18.5216 0.9746 0.9893 0.9893 0.9889 0.9839 0.9875 
rec.sport.baseball 19.0530 0.9866 0.9983 0.9983 0.9981 0.9983 1.0000 
rec.sport.hockey 18.8821 0.9949 0.9949 0.9983 0.9923 0.9933 0.9949 
sci.crypt 18.7698 0.9554 0.9628 0.9573 0.9549 0.9429 0.9666 
Ssci.electronics 18.3864 0.9396 0.9615 0.9597 0.9663 0.9613 0.9632 
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续 表 2 
正 类 类 别 不 平衡 率 原始 CNN 类 别 重 组 偏 置 CNN Focal-Loss AUCloss WPLoss 
sci.med 18.9672 0.9672 0.9744 0.9694 0.9739 0.9779 0.9698 
sci.space 19.4038 0.9572 0.9558 0.9760 0.9531 0.9741 0.9662 
soc.religion.christian 18.5216 0.9982 0.9982 0.9982 0.9982 0.9982 1.0000 
talk.politics.guns 18.6036 0.8905 0.8939 0.8862 0.8895 0.8885 0.8923 
talk.politics.mideast 18.8539 0.9149 0.9287 0.9276 0.9293 0.9283 0.9267 
talk.politics.misc 19.9223 0.6512 0.7375 0.7344 0.7540 0.7540 0.7688 
talk.religion.misc 18.9672 0.6515 0.6877 0.7186 0.7357 0.7167 0.7466 
平均 值 0.8987 0.9208 0.9294 0.9300 0.9294 0.9325 
表 3 Reuters-21578 实验 结果 
Tab.3 Results on Reuters-21578 
正 类 类 别 不 平衡 率 原始 CNN 类 别 重组 偏 置 CNN Focal-loss AUCloss WPLoss 
acq 3.0547 0.9711 0.9792 0.9730 0.9720 0.9698 0.9854 
crude 18.1355 0.8889 0.8818 0.8876 0.8708 0.9034 0.8994 
earn 1.2436 0.9885 0.9880 0.9849 0.9894 0.9921 0.9940 
grain 17.3653 0.9462 0.9513 0.9270 0.9407 0.9457 0.9621 
interest 35.8447 0.7174 0.7838 0.7376 0.7949 0.7826 0.7945 
money-fx 13.5037 0.7379 0.7742 0.7572 0.7439 0.7365 0.7799 
money-supply 49.7009 0.7636 0.8182 0.8000 0.7536 0.8000 0.9000 
ship 48.8487 0.6444 0.7482 0.7237 0.7361 0.7114 0.7500 
sugar 64.1868 0.8679 0.8966 0.8308 0.8182 0.8571 0.8966 
trade 19.1085 0.8756 0.8889 0.8308 0.8475 0.8815 0.8950 
平均 值 0.8402 0.8710 0.8368 0.8467 0.8580 0.8857 


从 实验 结果 中 可 以 看 出 原始 CNN 在 两 个 数据 集 上 的 性 
能 都 较 差 ,尤其 是 当 类 别 极 不 平衡 时 ， 如 在 Reuters-21578 数 
据 集 上 ， 当 正 类 类 别 为 money-supply 和 ship 等 ， 说 明 以 0-1 
损失 为 优化 目标 的 算法 在 面 对 不 平衡 数据 分 类 时 性 能 受 限 。 
类 别 重组 算法 在 两 个 数据 集 上 的 平均 性 能 都 较 优 ， 但 是 由 于 
升 采样 了 正 类 样本 ， 相 当 于 增加 了 训练 样本 数 ， 从 而 导致 相 
比 其 他 算法 所 需 的 训练 时 间 更 长 。 而 代价 敏感 类 的 算法 
Focal-Loss 相对 于 偏 置 CNN 算法 的 性 能 有 所 提升 ， 表 明 
Focal-Loss 对 偏 置 CNN 改进 的 有 效 性 。 

实验 结果 同时 表明 ， 本 文 提 出 的 WPLoss 在 绝 大 部 分 数 
据 集 上 的 性 能 优 于 其 他 方法 ， 并 且 在 两 个 数据 集 上 的 平均 性 
能 取得 最 优 结果 ， 从 而 验证 了 WPLoss 的 有 效 性 。 与 原始 上 
AUCLoss 相 比 ，WPLoss 几乎 在 所 有 数据 集 上 都 取得 了 较 优 
的 性 能 ， 表 明 WPLoss 通过 着 重 优化 难以 区 分 的 正 负 样 本 对 
提升 了 分 类 器 的 性 能 。 当 正 负 类 别 极为 不 平衡 时 ，WPLoss 与 
AUCLoss 相 比 性 能 优势 更 加 明显 。 如 Reuters-21578 中 ， 正 
类 类 别 为 money-supply 时 ， 不 平衡 率 为 49.7009，WPLoss 与 
AUCLoss 相 比 提升 了 12.8%; 正 类 类 别 为 ship 时 ， 不 平衡 率 
为 48.8487，WPLoss 5 AUCLoss 相 比 提升 了 5.496, EX% 
别 为 sugar 时 ， 不 平衡 率 为 64.1868，WPLoss 与 AUCLoss 相 


比 提升 了 4.696. 
3 ”结束 语 


本 文 提出 了 一 种 面向 不 平衡 数据 的 加 权 成 对 损失 
WPLoss， 通 过 赋予 距离 较 小 的 正 负 样本 对 更 大 的 损失 权重 ， 
使 得 优化 算法 着 重 优 化 难以 区 分 的 正 负 样本 对 ， 从 而 提 于 
类 器 的 性 能 。 在 公开 数据 集 20newsgroup 和 Reuters-21578 
的 实验 结果 表明 ，WPLoss 不 仅仅 相对 原始 的 成 对 损失 有 
无 的 性 能 ， 同 时 ， 与 其 他 处 理 不 平衡 数据 的 方法 相 比 ， 
得 了 较 优 的 性 能 ， 尤 其 在 不 平衡 率 较 高 的 时 候 。 
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